已经研究了预测听众平均意见评分(MOS)的自动方法,以确保文本到语音系统的质量。许多先前的研究都集中在建筑进步(例如MBNET,LDNET等)上,以更有效的方式捕获光谱特征和MOS之间的关系,并获得了高精度。但是,从概括能力方面的最佳表示仍在很大程度上仍然未知。为此,我们比较了WAV2VEC框架获得的自我监督学习(SSL)特征与光谱特征(例如光谱图和Melspectrogron的幅度)的性能。此外,我们建议将SSL功能和功能结合起来,我们认为我们认为将基本信息保留到自动MOS上,以相互补偿其缺点。我们对从过去的暴风雪和语音转换挑战中收集的大规模听力测试语料库进行了全面的实验。我们发现,即使给定的地面真相并不总是可靠,WAV2VEC功能集也显示出最佳的概括。此外,我们发现组合表现最好,并分析了它们如何弥合光谱和WAV2VEC特征集之间的差距。
translated by 谷歌翻译